Найти | Информатика и автоматизация

Поиск статей:

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Сергей Николаевич Карпович

2016-08-01

Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI

92-104

В работе рассмотрен подход к многозначной классификации текстовых документов на основе вероятностного тематического моделирования. На базе корпуса SCTM-ru построена тематическая модель методом обучения с учителем, приведен алгоритм многозначной классификации. Описан состав программного прототипа, реализующего предложенный подход.

Сергей Николаевич Карпович

2015-04-16

Русскоязычный корпус текстов SCTM-ru для построения тематических моделей

123-142

В статье рассматривается задача создания русскоязычного специального корпуса текстов для тестирования алгоритмов вероятностного тематического моделирования. В качестве наполнения корпуса предлагается использовать статьи международного новостного сайта «Русские Викиновости», распространяемого по свободной лицензии CC BY 2.5. Описан этап предварительной обработки и разметки корпуса текстов. Предложена разметка корпуса текстов, содержащая только необходимую в алгоритмах тематического моделирования информацию.

Сергей Владимирович Смирнов

2014-11-11

Корректировка ошибок оптического распознавания на основе рейтинго-ранговой модели текста

64-82

Результаты массового оптического распознавания архивных документов необходимо подвергать корректировке с целью сокращения количества ошибок. В работе описывается алгоритм корректировки, учитывающий особенности русского языка и позволяющий обрабатывать корпуса текстов больших объемов в полностью автоматическом режиме. Процесс корректировки разделяется на этапы анализа всего корпуса текстов, подготовки структур данных, отбора слов-кандидатов и их финального ранжирование. Использование рейтинго-ранговой модели текста для генерации корректировок позволяет обрабатывать тексты, содержащие узкоспециализированную терминологию, различных предметных областей.

Ирина Сергеевна Кипяткова, Алексей Анатольевич Карпов

2010-03-01

Разработка и исследование статистической модели русского языка

35-49

В статье описан процесс создания статистической модели русского языка для систем распознавания слитной речи. Дана характеристика собранного текстового корпуса, который сформирован из новостных лент ряда Интернет-сайтов электронных газет, проводится статистический анализ данного корпуса. На основе собранного текстового корпуса созданы униграммная, биграммная и триграммная модели русского языка. Для определения качества этих моделей использованы показатели энтропии и коэффициента неопределенности для этих моделей. Также в статье приведен обзор существующих подходов к созданию статистических моделей языка.

Андрей Анатольевич Крижановский

2009-12-01

Построение машинно-читаемого словаря на основе русского викисловаря

228-233

Сформулированы и решены практические вопросы извлечения данных из викисловаря, представляющего собой тезаурус и многофункциональный многоязычный словарь (только в русском викисловаре представлено более 300 языков). Для хранения лексикографической информации, извлеченной из русского викисловаря, разработаны структура базы данных машинно-читаемого словаря, а также интерфейс к этой базе данных который позволяет выводить на экран карточки словарных статей. В работе рассказывается о создании машинно-читаемого словаря на основе данных русского викисловаря.

1 - 5 из 5 результатов

Поиск статей

Импакт-фактор

Разделы

Мы в сети

Обратная связь